97 research outputs found

    Contributions to Quality-Aware Online Query Processing

    Get PDF
    International audienceFor non-collaborative data sources, quality-aware query processing is difficult to achieve because the sources generally do not export data quality indicators. This paper presents a prospective work on the declaration of metadata describing data quality and on the adaptation of query processing for taking into account constraints on the quality of data and finding dynamically the best trade-off between the cost of the query and the quality of the result

    ADVISU : interactive visualization of anomalies and dependencies from massive scientific datasets

    Get PDF
    Démonstration de LogicielIn this demo, we present ADVISU (Anomaly and Dependency VISUalization), a powerful interactive system for visual analytics from massive datasets. ADVISU efficiently computes different types of dependencies (FDs, CFDs) and detects data anomalies from databases of large size, i.e., up to several thousands of attributes and millions of records. Real-time and scalable computational methods have been implemented in ADVISU to ensure interactivity and the demonstration is intended to show how these methods scale up for realworld massive scientific datasets in astrophysical and oceanographic application domains. ADVISU provides the users informative and interactive graphical interfaces for visualizing data dependencies and anomalies. It enables the analysis to be refined interactively while recomputing the dependencies and anomalies in user selected subspaces with good performance

    Documents, données et méta-données : une approche mixte pour un système de veille

    Get PDF
    International audienceMots clefs : sources d'information, informations textuelles, données structurées, méta-données, analyse et conception d'un système de veille Keywords: information sources, textual information, structured data, metadata, watch system modeling and design Palabras clave : fuentes de información, información textual, datos estructurados, méta datos, métodos de diseño y diseño de los sistemas de vigilancia Résumé L'exploitation de grandes masses documentaires pour l'élaboration d'un dossier de veille technique nécessite la mise en oeuvre d'un système d'information adapté à la compilation de données multisources. Le retour d'expérience sur l'utilisation du système de veille SILURE au Centre Technique des Systèmes Navals, système présenté dans nos précédentes contributions [Gra97,BG98], nous conduit à étendre la modélisation initiale pour une meilleure prise en compte du contexte documentaire d'où sont extraites les données sélectionnées. L'originalité de cette double approche (« orientée donnée » et « orientée document ») repose sur l'emploi de méta-données relatives à la qualité des données stockées et à celle de leurs sources (intérêt, fiabilité, complétude, fraîcheur). L'exploitation combinée de ces méta-données permet notamment d'affecter les priorités de traitement sur une collection de documents qui va, par une structuration sélective semi-automatique, assurer l'alimentation en données factuelles et référentielles de la base au coeur du système de gestion des informations du domaine ciblé par la démarche de veille

    A quality-aware spatial data warehouse for querying hydroecological data

    Get PDF
    International audienceAddressing data quality issues in information systems remains a challenging task. Many approaches only tackle this issue at the extract, transform and load steps. Here we define a comprehensive method to gain greater insight into data quality characteristics within data warehouse. Our novel architecture was implemented for an hydroecological case study where massive French watercourse sampling data are collected. The method models and makes effective use of spatial, thematic and temporal accuracy, consistency and completeness for multidimensional data in order to offer analysts a âdata qualityâ oriented framework. The results obtained in experiments carried out on the Saône River dataset demonstrated the relevance of our approac

    Nettoyage des données XML : combien ça coûte ?

    Get PDF
    National audienceL'objectif de cet article est de présenter un travail en cours qui consiste à proposer, implanter et valider expérimentalement un modèle pour estimer le coût d'un processus de nettoyage de documents XML. Notre approche de calcul de coût est basée sur une méthode par calibration selon une analyse probabiliste. Pour cela, nous proposons de calculer des probabilités de pollution et au préalable de détection des différents types de pollutions. Pour valider notre modèle, nous avons choisi de polluer artificiellement une collection de données XML avec l'ensemble des types d'erreurs possibles (erreurs typographiques, ajout de doublons, de valeurs manquantes, tronquées, censurées, etc.) et d'estimer, grâce au modèle proposé, le nombre et le coût des opérations nécessaires au nettoyage des données afin de proposer des stratégies de réparation ciblées et économes. Les expérimentations en cours ne sont pas rapportées dans cet article

    Modèle décisionnel basé sur la qualité des données pour sélectionner les règles d'associations légitimement intéressantes

    Get PDF
    National audienceDans cet article nous proposons d'exploiter des mesures décrivant la qualité des données pour définir la qualité des règles d'associations résultant d'un processus de fouille. Nous proposons un modèle décisionnel probabiliste basé sur le coût de la sélection de règles légitimement, potentiellement intéres-santes ou inintéressantes si la qualité des données à l'origine de leur calcul est bonne, moyenne ou douteuse. Les expériences sur les données de KDD-CUP-98 montrent que les 10 meilleures règles sélectionnées d'après leurs mesures de support et confiance ne sont intéressantes que dans le cas où la qualité de leurs données est correcte voire améliorée

    Tracing Data Pollution in Large Business Applications

    Get PDF
    International audienceIn large business applications, various data processing activities can be done locally or outsourced, split or combined and the resulting data flows have to be exchanged, shared or integrated from multiple data processing units. There are indeed various alternative paths for data processing and data consolidation. But some data flows and data processing applications are most likely exposed to generating and propagating data errors; some of them are more critical too. Actually, we usually ignore the impact of data errors in large and complex business applications because : 1) it is often very difficult to systematically audit data, detect and trace data errors in such large applications, 2) we usually don't have the complete picture of all the data processing units involved in every data processing paths; they are viewed as black-boxes, and 3) we usually ignore the total cost of detecting and eliminating data anomalies and surprisingly we also ignore the cost of " doing nothing " to resolve them. In this paper, the objectives of our ongoing research are the following: to propose a probabilistic model reflecting data error propagation in large business applications, to determine the most critical or impacted data processing paths and their weak points or vulnerabilities in terms of data quality, to advocate adequate locations for data quality checkpoints, and to predict the cost of doing-nothing versus the cost of data cleaning activities
    • …
    corecore